F-CheX : Une approche de fouille dans les documents XML
نویسندگان
چکیده
Résumé. Nous présentons dans cet article une approche de fouille dans les documents XML qui prend en compte la structure et le contenu. Notre approche consiste à effectuer un clustering sur les documents XML. Ces derniers sont représentés par des ensembles de chemins conservant la structure arborescente des éléments. Les ensembles de chemins sont mappés dans une matrice sur laquelle une méthode de clustering est appliquée. L’approche proposée utilise un thésaurus créé au préalable pour gérer l’aspect sémantique des mots. Une évaluation de notre approche est effectuée à travers une étude expérimentale sur deux collections de documents XML.
منابع مشابه
Recherche d'information XML utilisant un principe de vote
RÉSUMÉ. Cet article décrit une approche pour la recherche d’information dans des collections de documents XML. Cette approche utilise une méthode de vote pour déterminer les éléments XML répondant à une requête. Une requête peut combiner des informations sur le contenu recherché, sur la granularité des éléments recherchés et sur les éléments structurels associés aux concepts recherchés. La méth...
متن کاملRecherche d'information orientée contenu dans les documents XML par agrégation partielle des sources de pertinence
La recherche d’information (RI) orientée contenu dans les documents semistructurés de type XML met en relation un besoin en information exprimé sous forme d’une requête sur le contenu recherché (liste de mots-clés) et une collection de document XML. Le système de recherche doit répondre en retournant non pas des documents entiers, mais juste des fragments de documents (des éléments XML) pertine...
متن کاملTLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateu...
متن کاملFouille de collections de documents en vue d'une caractérisation thématique de connaissances textuelles
Résumé. De nos jours, les entreprises, organismes ou individus se trouvent submergés par la quantité d'information et de documents disponibles. Les utilisateurs ne sont plus capables d’analyser ou d’appréhender ces informations dans leur globalité. Dans ce contexte, il devient indispensable de proposer de nouvelles méthodes pour extraire et caractériser de manière automatique les informations c...
متن کاملFouille de données relationnelles dans les SGBD
Les travaux sur la fouille de données relationnelles prennent leur essor dans le domaine de la Programmation Logique Inductive (PLI). Bien qu’efficace en terme d’extraction de connaissances, la PLI est inadaptée pour traiter des bases de données relationnelles de grande taille. Dans cet article nous présentons une nouvelle approche qui apporte une solution efficace à la fouille de données relat...
متن کامل